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Особенности лексико-морфологического 
анализа в задачах извлечения структур 
знаний из текстов естественного языка 


Рассматривается класс объектно-ориентированных лингвистических процессоров, выделяющих структуры 
знаний из текстов естественного языка (ЕЯ). Важной компонентой таких систем является блок лексико- 
морфологического анализа. В процессе разработки приложений этот блок постоянно совершенствовался 
и приобрел много новых функций, выходящих за рамки возможностей существующих блоков подобного 
типа. Данный блок генерирует лексические, морфологические, семантические признаки слов, выявляет 
простейшие формы естественного языка, имеет специальные средства настройки на предметную область и 
на особенности текстов ЕЯ. В работе рассматриваются эти функции. 


Введение 


На протяжении многих лет в ИПИ РАН активно развивается область, связанная 
с построением систем, обеспечивающих извлечения полезной информации из текстов 
естественного языка (ЕЯ) с формированием структур знаний и их использованием 
для решения прикладных задач — поисковых, логико-аналитических. Для таких систем 
требовались специальные языки представления знаний и инструментальные средства 
их обработки. Учитывался тот факт, что язык — это структурный объект на всех его 
уровнях: от поверхностного до семантического. Для обработки конструкций языка 
были созданы язык расширенных семантических сетей (РСС), обеспечивающий пред- 
ставление текстов ЕЯ на уровне структур знаний с любой требуемой точностью, и 
язык ДЕКЛ - для преобразования структур в виде РСС [1-3]. 

Важной составляющей логико-аналитических систем, имеющих дело с инфор- 
мацией на ЕЯ, является лингвистический процессор, отображающий тексты ЕЯ на 
структуры знаний [4-6]. При разработке таких процессоров учитывался тот факт, что 
определенные категории пользователей интересуются конкретной информацией, кото- 
рая встречается в текстах ЕЯ. Нужно извлекать из текстов только эту информацию. 
Данное направление возникло в связи с прикладными разработками для ГУВД 
г. Москвы. Их проблемы заключались в наличии потоков документов на ЕЯ (сводок 
происшествий, справок по уголовным делам, обвинительных заключений и др.), в 
которых было много полезной информации. Это фигуранты, их адреса, телефоны, 
оружие, автотранспорт и др. Будем называть их информационными объектами 
(другое название — сущности). Следователей и аналитиков интересовали именно 
такого сорта объекты и связи между ними. Использование типовых БД требовало 
громадной работы для их заполнения. 

В связи с этим в ИПИ РАН была инициирована работа по созданию лингви- 
стических процессоров (ЛП), обеспечивающих автоматическое выделение их текстов 
ЕЯ информационных объектов и связей с формированием структур знаний. Такие ЛИ 
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были названы объектно-ориентированными. Были созданы системы «Криминал», 
«Аналитик» и др., обеспечивающие автоматическое извлечение структур знаний из 
текстов ЕЯ и их использование для решения логико-аналитических задач [3], [6], [7]. 
Важной компонентой ЛП является блок лексико-морфологического анализа (ЛМА), 
который анализирует текст и строит семантическую сеть (РСС), названную прост- 
ранственной структурой текста (ПС-текста) [6]. Последняя обрабатывается блоком 
синтактико-семантического анализа (ССА), который (на языке ДЕКЛ) анализирует 
ПС-текста и формирует на РСС структуру, представляющую объекты и связи между 
ними. Такие структуры образуют базу знаний (Б3З). 

Отметим, что блок ЛМА написан на языке Си-+, при использовании которого 
на определенных этапах формализации текстов возникают существенные трудности. 
В то же время чем больше функций берет на себя блок ЛМА, тем в большей степени 
снимает трудности дальнейшего процесса формализации, который осуществляется 
блоком ССА [3], [5], [6]. 


1 Компоненты объектно-ориентированных 
лингвистических процессоров 


Опыт многих разработчиков показывает, что при автоматическом анализе потока 
документов учесть все формы и особенности ЕЯ и построить сколь либо полную 
«модель языка» — неразрешимая задача. Поэтому требуется постоянное совершенство- 
вание ЛП. В связи с этим перспективным представляется направление, когда про- 
грамма объектно-ориентированного ЛП отделяется от лингвистических знаний (ЛЗ). 
Последние определяют всю процедуру анализа (см. ниже). ЛЗ имеют вид деклара- 
тивных структур, которые легко менять и настраивать. В нашем случае роль таких 
структур выполняют фрагменты РСС [3], [5], [6]. Настройка ЛП осуществляется только 
за счет разработки ЛЗ. 

Задача ЛП — поддерживать ЛЗ. При использовании подобных ЛП облегчается 
настройка на корпуса текстов, особенности предметной области. Корректировать ЛЗ 
может человек, обученный формализму РСС и знакомый с элементами математи- 
ческой лингвистики. Ему не нужно уметь программировать. 

Рассмотрим основные компоненты объектно-ориентированных ЛП. 

1.1. Блок лексико-морфологического анализа (ЛМА) выделяет из документа 
слова и предложения и выдает в виде семантической сети (ПС-документа), пред- 
ставляющей последовательность компонент (слов в нормальной форме, чисел, знаков) 
и их основные признаки. Блок ЛМА имеет три основных подсистемы: 

— Лексический анализатор, который ответственен за правильное деление входного 
текстового потока на абзацы, предложения и слова (формирует лексические признаки 
слов); 

— Морфологический анализатор, осуществляющий морфологический анализ всех 
слов текста (приводит слова в нормальную форму и формирует для них морфоло- 
гические признаки). 

Блок ЛМА имеет свои лингвистические знания (ЛЗ) — средства параметрической 
настройки, позволяющие учитывать разнообразие текстовой типологии, и набор пред- 
метных словарей (словарь стран, регионов России, имен, профессий и др.) для при- 
дания словам и словосочетаниям дополнительных семантических признаков [4], [5]. 

1.2. Блок синтактико-семантического анализа (ССА) путем анализа ПС-доку- 
мента выделяет объекты и связи. На их основе строит другую семантическую сеть, 
представляющую семантическую структуру документа (СС-документа), называемую 
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также содержательным портретом [3], [6], [7]. Этот блок включает в себя базу линг- 
вистических знаний (ЛЗ), которая содержит правила анализа текста во внутреннем 
представлении (РСС). Они определяют работу ЛП. 

Блок ССА управляется ЛЗ, за счёт которых обеспечивается: 

— извлечение информационных объектов (лиц, организаций, событий, их места); 

— выявление связей объектов; например, связей лиц с организациями, адреса- 
мии др.; 

— анализ глагольных форм, причастных и деепричастных оборотов с выявлением 
фактов участия объектов в тех или иных действиях; 

— идентификация объектов с учетом анафорических ссылок и сокращенных 
наименований; 

— выявление связей действий с их местом или временем (где и когда проис- 
ходило данное действие или событие); 

— анализ причинно-следственных и временных связей между действиями и 
событиями. 

Особенности блока ССА описаны во многих статьях [3], [5], [6]. Гораздо меньше 
внимания уделялось описанию работы блока ЛМА. В данной статье будет восполнен 
этот пробел. 

Блок ЛМА [4], [5] основан на традиционной для таких блоков схеме словарей. 
Однако, помимо этого, в блоке ЛМА присутствует еще словарь обобщенных основ, 
позволяющий обрабатывать и новые слова (п. 4). 

Блок ЛМА приводит слова в нормальную форму и присваивает им признаки, 
которые делятся на три группы: 

— лексические признаки (слово с большой буквы, большими буквами, с точкой 
на конце или это отдельная буква и др.) 

— морфологические признаки (грамматическая категория слова, число для суще- 
ствительных и т.д.); 

— семантические признаки (имя, организация, оружие и др., а также ключевые 
слова, относящиеся к соответствующему типу объектов). 

Предусмотренный лексикографический анализ обеспечивает автоматическое 
деление текста на самостоятельные части (например, выделение документов из сводок) 
и определение начала и конца предложения, а также начала и конца абзаца. 

Выходная информация блока ЛМА (т.е. ПС-текста) сохраняет порядок предло- 
жений в тексте, разделяя их фрагментами типа ЗЕМТ, и порядок слов в предложении. 
При этом каждое слово представляется с его признаками (п. 6). 


2 Прикладные области и тексты 


В настоящее время имеется большой опыт использования объектно-ориенти- 
рованных ЛП в прикладных областях, где требуется выделение различных объектов 
из корпусов текстов со своими особенностями. В данном разделе мы постараемся 
обобщить эти особенности и связанные с ними трудности, которые требовали посто- 
янного совершенствования блока ЛМА. Мы имели дело с такими предметными 
областями и текстами: 

2.1. Документы криминальной милиции. Работа делалась по заказу ГУВД 
г. Москвы [3], [7]. Была создана система «Криминал», в БЗ которой были введены: 
сводки происшествий (более 500 тыс. происшествий), справки по уголовным делам, 
обвинительные заключения, записные книжки фигурантов и др. Система обеспечивает 
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выделение фигурантов, их примет, связей, организаций, дат, документов, номеров 
счетов, оружия (всего до 40 типов объектов) с указанием характера их участия в 
криминальных действиях. 

2.2. Резюме (для приема на работу) на русском и английском языках. 
Работа имела целью автоматическую обработку архивов произвольно написанных 
резюме и их представление в формате сайта одной из компаний, осуществляющей 
поиск работы для клиентов [3]. Была создана система, выделяющая из резюме атри- 
буты человека, места его работы, учебы, соответствующие периоды времени, знание 
языков и т.д. Система отлаживалась на выборках в различных областях: информа- 
ционные технологии, банковское дело, финансы, юриспруденция и др. Система рабо- 
тала на сайте упомянутой компании, чтобы автоматически переводить резюме поль- 
зователей, поступающих через Интернет, в формат сайта. 

2.3. Документы о терроризме на русском языке. Работа носила инициативный 
характер с целью внедрения в крупный проект. Система дополнительно выделяла 
руководящих лиц, правительственные организации, террористов (как свойство фи- 
гурантов), террористические организации, орудия преступления, время и место собы- 
тий и т.д., а также связи и участие лиц в тех или иных действиях. 

2.4. Документы о памятниках культуры. Работа делалась для Министерства 
культуры. Система выделяет из текстов тип памятника (скульптура, монумент), кто 
является автором, создателем, время, место и многое другое. 

Во всех случаях (за счет средств настройки блоков ЛМА и ССА) удавалось 
добиться требуемого качества работы ЛП [3], [6], [7]. 

Отметим высокое разнообразие перечисленных предметных областей, которое 
определяется не только различием выделяемых объектов и связей. Еще большие 
отличия можно наблюдать в «стиле» текстовых сообщений, связанных с предметными 
областями. В понятие «стиль» мы включаем весь комплекс особенностей, присущих 
определенной группе текстов. Сюда входят: 

— лексика предметной области, включая всю совокупность специфических тер- 
минов предметной области; 

— коммуникативный тип текста: художественное произведение, техническая или 
аналитическая статья, новостное сообщение, приказ, РВ-текст (например реклама); 

— структурный тип текста: связный текст, список, таблица, математическая 
формула; 

— инструмент создания текста (имеется в виду текстовый редактор или гене- 
ратор текста, с помощью которого получен текст); 

— способ грамматического оформления текста, под которым понимается следо- 
вание стандартным правилам орфографии языка (проставление необходимых знаков 
препинания и разделителей, позволяющих структурировать текст); 

— следование принятой в языке орфографии, что выражается в количестве орфо- 
графических ошибок или нарочитом введении искаженной лексики. 

Отметим резкое увеличение разнообразия текстовой типологии, с которой мы 
столкнулись в различных предметных областях. В значительной степени это вызвано 
бурным распространением Интернета и тем фактом, что порождение текстов все в 
большей мере стали осуществлять люди различной степени подготовки и грамотности. 
Как следствие — наличие значительного количества специальных разделителей, от- 
сутствие знаков препинания, большое количество сокращений, ошибок и многое 
другое. Отсюда следуют дополнительные требования к компонентам блока ЛМА и 
средствам их настройки. Рассмотрим их подробнее. 
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3 Особенности лексического анализатора 


Лексический анализатор имеет дело с целым рядом взаимосвязанных задач, 
решение которых совершенно необходимо для успешной работы всего ЛП. Рассмотрим 
их особенности. 

Прежде всего, решается задача структуризации текста. Дело в том, что текст 
в современной информационной среде — сложно структурированный объект. И его 
структура должна быть распознана и аккуратно передана блоку ССА. От правильного 
распознавания структуры текста в значительной степени зависит корректность всего 
анализа по извлечению знаний. Поэтому задача структуризации распадается на 
цепочку локальных задач. 

3.1. Трудности выделения лексем. Рассмотрим трудности выделения из вход- 
ного потока лексем: слов, знаков препинания, разного рода разделителей и др. Совре- 
менный деловой текст содержит большое количество лексем, являющихся техни- 
ческими, административными и фирменными названиями, телефонами, шифрами, 
номерами автомобилей, адресами электронной почты и Интернета, содержащими 
цифры, буквы и разделители практически в произвольной комбинации. Такие знаки, 
как «-», «.» и «,„», доставляют много хлопот при их анализе, в одних случаях являясь 
разделителями лексем, а в других - нет. 

3.2. Задача выделения предложений. Ввиду огромного разнообразия текстовых 
«стилей», по отношению к современным текстам становится трудно говорить о пред- 
ложении. Скорее следует говорить о «сильносвязанных» отрезках текста, в которых 
идет речь об одном объекте или одной ситуации, в которой участвуют несколько 
взаимодействующих объектов. В результате само понятие «предложение» резко рас- 
ширяется, включая в себя, помимо обычных предложений (с точкой в конце), еще 
массу различных текстовых отрывков: ячеек таблицы, элементов списка и прочих, 
грамматическое оформление которых нетрадиционно. 

3.3. Задача выделения абзацев. Абзацем мы называем отрезок текста из одного 
или нескольких предложений, связанных единой темой. Расплывчатость этого опре- 
деления позволяет трактовать его достаточно широко. Однако для блока ССА понятие 
абзаца является весьма важным, поскольку многие его механизмы направлены 
именно на идентификацию и совмещение объектов внутри одной темы. Лексический 
анализатор содержит в своем составе ряд алгоритмов, выделяющих абзацы, причем — 
разных типов. 

Как оказалось, задачи выделения предложений и абзацев весьма нетривиальны. 
Трудности выделения абзацев главным образом связаны с тем, что хорошо разли- 
чимые разделители абзаца — пустые строки, отступы, границы клеток таблицы — 
теряются или искажаются при преобразовании текстов. Но гораздо большие трудности 
возникают при идентификации предложений. Дело в том, что современные пользова- 
тели Интернета вообще не считают необходимым ставить точки в конце предложения. 
В то же время точка активно используется в качестве ограничителя сокращений, разде- 
лителя между частями электронного адреса, многозначного числа, банковского номера 
и др. Кроме того, разделителем предложения может являться не только точка, но и 
другие знаки («;», «:», «!», «?», «р» и т.д.). В результате задача разбиения текста на 
предложения становится просто головоломной шарадой, требующей учета массы 
разного рода частных правил и исключений. 

3.4. Проблемы унификации текста. Естественный язык — система необычайно 
многовариантная. Задача лексического анализатора: унифицировать написание отдель- 
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ных слов и сокращений, привести к стандартной форме написание ряда стандартных 
словосочетаний. Трудности возникают при выявлении наиболее употребительных 
лексем и словосочетаний, требующих унификации. 

К этим трудностям добавляется проблема обнаружения и (по возможности) ис- 
правления опечаток и грамматических ошибок. В современных текстах их громадное 
количество, и бороться с ними — задача из сложнейших. Кроме того, в современных 
текстах, особенно из Интернета, намечается тенденция нарочитого переделывания и 
перевирания слов, типа «ацкий ужос» или «падстол». Начинает формироваться целая 
интернетная «феня». В связи с этим потребуется постоянная корректировка языковых 
словарей и правил составления предложений. 

Еще одна важная функция лексического анализатора — определение лексических 
признаков слов. Примеры такого рода признаков: «слово из кириллицы с прописной 
буквы», «слово из кириллицы из прописных букв», «разделитель», «слово из латин- 
ских букв» и проч., всего — около 20 лексических признаков. Лексические типы 
являются важной дополнительной информацией, облегчающей работу как морфоло- 
гического анализатора, так и блока ССА. 

Наконец, лексический анализатор для ряда слов способен выполнить семантиче- 
ский анализ, определяя по формальному виду слова его семантическую категорию. 
К этому случаю относятся сокращения имен и отчеств: прописная буква, за которой 
идет «.». Например «А.», «Н.», «/Л.». Еще примеры идентифицируемых семантических 
классов: «адрес электронной почты», «Интернет-адрес» (ОВГ.), «целое число», «число 
с дробной частью». Собственно, определение семантического класса каждого слова 
или словосочетания является одной из задач всего ЛИ. И чем раньше такой класс 
будет определен, тем легче дальнейший анализ. 


4 Особенности морфологического анализатора 


Задача морфологического анализатора — нормализация слов, определение морфо- 
логических признаков лексем, а также (в ряде случаев) нахождение их семанти- 
ческих классов. Отметим, что к настоящему времени разработан целый ряд морфо- 
логических анализаторов русского языка [8], [9]. 

4.1. Схема анализа. Первоначально была реализована базовая схема анализа [6]. 
Считается, что каждое слово имеет постоянную часть (основу) и переменную часть. 
Последняя образует словоизменительную парадигму или класс окончаний. Были накоп- 
лены два словаря: словарь классов окончаний (СКО), в котором хранятся все возмож- 
ные парадигмы русского языка и словарь основ (СО), в котором хранятся основы 
слов со ссылками на соответствующий класс окончаний. 

Например, слово «бытие» имеет основу «быти» и класс окончаний за номером 
1759, содержащий окончания в именительном, родительном, дательном, винительном, 
творительном и предложном падежах, а именно: «е», «я», «ю», «е», «ем», «и» 
(множественного числа это слово не имеет). Соответственно в СО имеется запись 
«быти 175%», а в СКО под номером 1759 закодирована парадигма с указанными 
окончаниями. 

Отметим, что в общем случае в СО может быть несколько записей с одинаковой 
основой (но с разными классами окончаний), а на один и тот же класс окончаний 
может ссылаться несколько слов с разными основами. Возможны случаи пустой основы 
(пример: «хорошо»-«лучше») и пустого класса окончаний (для неизменяемых слов). 
Кроме основы и вариантов окончаний, в СКО хранятся морфологические признаки, 
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соответствующие определенному классу окончаний в целом (постоянная морфоло- 
гическая информация) и каждому окончанию парадигмы в отдельности (переменная 
морфологическая информация). Так, для класса 1759 в качестве постоянной информа- 
ции хранятся признаки существительного, среднего рода, неодушевленности и второго 
склонения, а для каждого окончания хранится признак соответствующего падежа. 

Алгоритм морфологического анализа при наличии данных словарей сводится к 
следующему. Для слова рассматриваются все варианты его разбиения на основу и 
окончание. Если для данного варианта разбиения находится основа, а в соответ- 
ствующем ей классе окончаний находится вариант окончания, то данный морфоло- 
гический разбор является корректным и слово получает морфологические признаки, 
взятые из постоянной и переменной частей морфологической информации. В общем 
случае может быть найдено и выдано несколько вариантов морфологического разбора, 
что известно как морфологическая омонимия. 

4.2. Морфологический анализ незнакомых слов. В принципе предложенная 
схема анализа вполне корректна. Однако на практике ее успешное использование 
достаточно проблематично. Дело в том, что такая схема предполагает ручную раз- 
работку обоих словарей. И заметим - не только первоначальную разработку, но и их 
постоянное пополнение. Последнее обстоятельство особенно неприятно: в русском 
языке — более 100 тыс. слов общеупотребительного назначения и миллионы специаль- 
ных терминов. Кроме того, за последнее время в русскоязычных текстах стало исполь- 
зоваться огромное количество англоязычных слов, которые никогда не входили 
в классические словари русского языка. Фактически требовалось ежедневное попол- 
нение словаря. 

Выход из описанной ситуации известен — обработка незнакомых системе слов 
«по аналогии» [8], [9]. В нашей реализации этого метода использовался третий сло- 
варь — «словарь хвостов основ» (СХО). В словарь записываются все 1-буквенные, 
2-буквенные, 3-буквенные и т.д. «хвосты» основ (первые буквы основ отбрасываются) 
с указанием соответствующего класса окончаний. Было решено, что в СХО не будет 
одинаковых «хвостов», а его класс окончаний вычисляется из статистических сооб- 
ражений — по максимуму основ в СО, имеющих данный «хвост» и данный класс 
окончаний. Если слово не находится в словаре СО, то та же схема анализа повто- 
ряется, но уже с помощью пары словарей СХО-СКО. 

В реализации словари СО и СХО были слиты в один словарь, за которым закре- 
пилось название обобщенного словаря основ (ОСО), в результате чего все варианты 
анализа, — как точные, так и по аналогии, — выявляются за один проход по словарю. 

4.3. Способы устранения морфологической омонимии. Ясно, что использо- 
вание обобщенного словаря основ ОСО может приводить к лишним вариантам морфо- 
логического анализа. Было предложено два достаточно эффективных способа борьбы 
с морфологической омонимией. 

Первый способ — эмпирический алгоритм, отбрасывающий наименее вероятные 
варианты морфологического анализа. Такая «зачистка» вариантов выполняется по 
многим критериям, учитывающим наличие слова в СО, длину основы с СХО, часть 
речи. Кроме того, эмпирический алгоритм расставляет все варианты разбора в по- 
рядке их вероятности. 

Второй способ — частичный синтаксический анализ, позволяющий отбросить 
варианты морфологического анализа, которые не удовлетворяют критериям согла- 
сования слов. Для этого было реализовано распознавание двух конструкций: полного 
согласования и генетической цепочки [4]. 
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5 Предметные словари 


Предметные словари (стран, имен собственных, организаций, профессий, видов 
оружия и др.) состоят из терминов. Множество словарей образует систему. 

Система предметных словарей (СПС) предназначена для распознавания в тексте 
слов и словосочетаний, специфичных для конкретной предметной области. Им присва- 
иваются признаки принадлежности к определенной семантической категории. Будем 
называть этот процесс идентификацией терминов словаря. Такая принадлежность 
является основой выделения объекта. В предметном словаре может быть или термин, 
представляющий объект определенного типа (таких объектов может быть достаточ- 
но много), или характеристическое слово, опираясь на которое можно начинать рас- 
познавание объекта — на уровне синтактико-семантического анализа. 

Как показывает опыт, СПС является необходимой компонентой любого объектно- 
ориентированного ЛП. В нашей разработке СПС встроена в блок ЛМА. Причина 
этого — главным образом в быстродействии. Поиск в СПС предполагает частые обра- 
щения к ней, а потому требуется высокая эффективность поиска, чего трудно достичь 
без использования универсальных языков программирования. В нашем случае про- 
граммное обеспечение СПС написано на Си++. 

Структурно СПС состоит из произвольного количества словарей, представля- 
ющих собой определенный семантический класс. В каждом из словарей может содер- 
жаться произвольное количество словарных записей. Под записью в тривиальном 
случае понимается термин (однословный или многословный). Однако простыми тер- 
минами словарные объекты не ограничиваются. Допускаются записи в виде словарных 
шаблонов, описывающих группу терминов (п. 5.2). В настоящее время разработаны 
более 20 предметных словарей; среди них: «улицы г. Москвы», «террористические 
организации», «оружие», «известные личности» и т.д. 

5.1. Требования к предметным словарям. К СПС, помимо эффективности, 
предъявляются еще ряд требований, важнейшим из которых является требование 
вариативности поиска. Должна быть предусмотрена корректная обработка случаев, 
когда написание термина в тексте так или иначе не соответствует его каноническо- 
му виду в словаре. Основная трудность — когда имеет место множество вариантов 
употребления одного и того же термина. Их нужно приводить к одному виду. 
Рассмотрим примеры. 

Как правило, названия улиц записаны в именительном падеже. Например, 
«проживает по адресу Б. Академическая ул. д. 6-18». Иногда встречается дательный 
падеж: «по Б. Академической». Гораздо более усложняет дело вариативность сокра- 
щений и перестановки слов. Например, канонический вид названия одной из улиц 
Москвы — «Щипковский 1-й пер.». Однако встречаются в текстах написания: «/-й 
Щипковский пер.», «1-ый Щипковский переулок», «п-к [-вый Щипковский» и другие 
варианты. Отметим, что возможна не только перестановка и вариативное написание 
слов, но и выпадение или добавление слов. Например, «Туполева Академика наб.» 
может быть названа как «набережная Туполева», а в название «Тихий туп.» иногда 
добавляют пояснение «ул. Тихий туп.». Кроме того, некоторые сокращения, применя- 
емые авторами текстов, далеко не однозначны. Например «С.» может означать «Север- 
ный» или «Старый»; «Б.» может означать «Большой», а может быть сокращением 
имени, например «ул. Б. Галушкина». 

5.2. Возможности предметных словарей. Подключение новых словарей может 
значительно усилить ЛП в плане выделения объектов. Однако для того, чтобы словари 
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в самом деле стали действенным и удобным механизмом, необходимо, чтобы они 
обладали рядом нетривиальных возможностей. 

В нашей версии СПС реализованы несколько таких возможностей. 

Во-первых, идентификация термина в любом числе и падеже. Например, если в 
словаре есть термин «программный продукт», то в тексте будут распознаваться и соот- 
ветствующим образом идентифицироваться термины «ирограммного продукта», «про- 
граммных продуктов» и т.д. Распознавание выполняет программное обеспечение 
системы предметных словарей, использующее блок морфологического анализа. 

Во-вторых, допускается несколько вариантов написания одного и того же тер- 
мина. Дело в том, что в средствах СМИ и многих других текстах пользуются различ- 
ными вариантами именования одного и того же объекта, в том числе сокращенным 
описанием. Например, если в тексте встретилось //утин, Меркель, президент Франции 
и т.д., то понятно, о ком идет речь. Для приведения таких словосочетаний к стандарт- 
ному виду в словари введена специальная запись. Например, в словаре ФИО может 
иметь место запись: 

Меркель Ангела 

= Ангела Меркель 

= А. Меркель 

= Меркель 

В данном примере основной термин — «Меркель Ангела». К нему будут приводить- 
ся все остальные написания этого имени, записанные после символа «=». Эта возмож- 
ность особенно эффективна при выявлении не только ФИО известных деятелей, но и 
названий организаций (включая их сокращения), географических названий и др. При 
этом блок ССА осуществляет дополнительную фильтрацию, например, когда в тексте 
несколько лиц с фамилией Меркель или рядом со словом Меркель стоит какое-либо 
имя, не представленное в предметном словаре. 

В-третьих, в предметные словари введена возможность описания группы терми- 
нов, у которых лишь первое слово фиксировано, а остальные могут быть описаны с 
помощью совокупности признаков (лексических и морфологических). Реализованы 
так называемые словарные шаблоны. Например, в словаре допустима запись: 

заведующий {МОЧМ, КЕМ$}. 

Такая запись в словаре профессий означает, что подходящими под этот шаблон 
терминами могут быть все словосочетания, начинающиеся со слова «заведующий», 
за которым идёт существительное (МОМ) в творительном падеже (КЕМ): «заведу- 
ющий складом», «заведующий библиотеками» и т.д. Кроме того, в качестве шаблона 
можно употреблять имя другого (или того же самого) словаря. Фактически на словари 
возлагаются элементы синтаксического анализа, позволяющие значительно уменьшить 
количество записей в словаре, а также облегчить работу блока ССА. 

В-четвертых, имеется возможность управлять лексическим и морфологическим 
анализами в процессе распознавания терминов словарей. Так, например, в словаре 
террористических организаций может быть указано: 

Организация эта\ 

= ЭТА! 

Это означает, что, благодаря признаку «\», слово «эта» в процессе идентифика- 
ции морфологическому анализу не подвергается (т.е. его каноническая форма совпадает 
с написанием). И кроме того, благодаря признаку «!», идентификация совершается, 
если в тексте слово «ЭТА» записано прописными буквами. Эти возможности позво- 
ляют повысить точность распознавания, отсеивая ложные вхождения. 


«Штучний 1нтелект» 42011 113 


Кузнецов И.П., Сомин Н.В., Козеренко Е.Б., Мацкевич А.Г. 


Отметим, что язык записи терминов в словарях чрезвычайно прост. Термин 
пишется в своей канонической форме на отдельной строке (включая, разумеется, ука- 
занные выше дополнительные возможности). Поэтому ввод новых терминов или даже 
создание новых словарей может быть выполнено пользователем или оператором- 
лингвистом, не знакомым с особенностями работы ЛП. 

Помимо указанных возможностей имеется еще ряд специальных операторов наст- 
ройки, позволяющих управлять идентификацией терминов для тех или иных словарей. 


6 Представление пространственных структур 


Текст ЕЯ - это сложный структурный объект, который в процессе его формали- 
зации проходит множество уровней преобразования. На первом уровне работает блок 
ЛМА, который формирует РСС, называемую пространственной структурой текста 
(ПС-текста). Далее следуют преобразования, осуществляемые блоком ССА, которые 
приводят к формированию семантической структуры (СС-текста) для БЗ. 

Рассмотрим особенности ПС-текста. Информация об абзацах и предложениях 
представляется в виде фрагмента ЗЕМТ, с помощью которого представляется: 

— позиция первого слова предложения относительно начала входного потока; 

— признак начала абзаца и количество разделительных строк; 

— номер строки, на которой расположено первое слово предложения. 

Для каждого слова (и для каждого варианта его разбора) блок выдает фрагменты 
типа Г.В, задающие последовательность слов. В каждом из фрагментов представлено: 
нормализованное слово и его порядковый номер. Далее следуют его признаки. Вот 
некоторые из них: МАМЕО -— слово начинается с прописной буквы, НЕАО - слово 
полностью состоит из прописных букв, МАМЕ1 -— инициалы, РОГМТ - пункт, 
НЕАО_ 1 - слово с прописной буквой, МОМ) — целое число, МОМ Е - число с 
дробной частью, ЕМОТ, — слово из букв латинского алфавита, \УЕВ_С -— ЧВГ (адрес 
Интернет), МАП. Е - адрес электронной почты, ЕГК$Т_ — признак первого слова на 
новой строке, ГЕТТ — слово из одной буквы и т.д. (морфологические и семанти- 
ческие признаки). 

Фрагменты типа Г.В и ЗЕМТ вместе с выделенными признаками — это семан- 
тическая сеть (РСС), которая в дальнейшем проходит множество уровней преобразо- 
вания, осуществляемое блоком ССА. 

В общем случае блок ЛМА выдает несколько вариантов разбора. Например, 
слово «стекло» является и существительным, и глаголом. Тогда в ПС-текста, помимо 
фрагмента Г.К для первого варианта разбора, генерируются фрагменты Г.О (с их при- 
знаками) для других вариантов. Отсев вариантов осуществляется блоком ССА в про- 
цессе обработки ПС-текста и построения семантической структуры [5]. 


7 Особенности параметрической настройки 


Опираясь на опыт построения ЛП для различных предметных областей (п. 2), 
чтобы постоянно учитывать все новые особенности текстовой типологии, в блок ЛМА 
были введены средства управления лексико-морфологическим анализом, названные 
средствами параметрической настройки. Эти средства относятся к ЛЗ и размеща- 
ются в отдельном файле. Они имеют вид списков, оформленных в виде фрагментов 
РСС со своими именами. Имена играют роль операторов и определяют вид анализа. 
Рассмотрим некоторые из них, разделив операторы на смысловые группы. 
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7.1. Средства идентификации начала и конца предложения. 

Если слово, указанное во фрагменте МЕ\/ ЗЕМТ, записано в тексте с прописной 
буквы и находится в начале строки, то оно рассматривается как начало нового пред- 
ложения. 

Если в тексте встречается одно из слов (символов, знаков), указанных во фраг- 
менте ЕМХО_ЗЕМТ, то оно считается концом предложения. 

Фрагмент АВВК задает список сокращений с точками на конце, которые счита- 
ются цельными словами, и точки не рассматриваются как конец предложения. 

Фрагмент ЗЕРАКАТОК задает символы, которые всегда являются разделите- 
лями слов. 

7.2. Средства для замены или удаления некорректных символов или слов. 

Фрагменты ГЕТТЕВ_СН и ОКР _ВАП задают замены (или удаление) нежела- 
тельных слов или знаков в тексте. 

Фрагменты ВЕС _ЗУМВ задают набор удаляемых знаков в начале слова, а 
ЕМО ЗУМВ - в конце. 

7.3. Средства унификации и синонимичных замен. 

Фрагмент ЗУМОМ задает список синонимичных слов, которые заменяются на 
слово из первой позиции. 

Фрагмент ТЕКМГМ заменяет слова, записанные на второй и последующих по- 
зициях, на слово в первой позиции. 

Фрагмент $310М_ МАМУ задает повторяющиеся символы, следующие один за 
другим (например, набор черточек) на один символ (черточку). 

7.4. Средства настройки морфологического анализатора. 

Фрагмент МОВЕ определяет генерацию морфологических признаков слова в 
виде фрагментов ПС-текста. 

Фрагмент МОМО задает список слов, для которых устанавливается запрет на 
нормализацию и морфологический анализ. 

Это необходимый набор операторов, без которых (как оказалось) трудно обес- 
печить качественный лексико-морфологический анализ многих текстов ЕЯ, и следо- 
вательно, качественную работу всего объектно-ориентированного ЛП. 


Заключение 


В данной статье рассмотрены направления развития блока лексико-морфологи- 
ческого анализа, используемого в объектно-ориентированных лингвистических про- 
цессорах (ЛП) при формализации текстов ЕЯ, т.е. для извлечения из них инфор- 
мационных объектов, признаков и связей. В блок введены дополнительные средства, 
с помощью которых обеспечивается устойчивая и качественная работа ЛП при обра- 
ботке массивов документов на ЕЯ в различных предметных областях: «Кримина- 
листика», «Резюме», «Терроризм», «Памятники культуры» и др. 
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Особливост! лексико-морфоло чного аналву в задачах добування структур знань 

з текств природно! мови 

Розглядаеться клас об’ектно-ор1ентованих лингв1стичних процесорлв, як! видлляють структури знань 3 
текств природно! мови (ПМ). Важливою компонентою таких систем е блок лексико-морфологичного 
анал!зу. У процес! розробки застосувань цей блок посмйно удосконалювався 1 набув багато нових 
функщй, як! виходять за меж! можливостей 1снуючих блоюв под!бного типу. Даний блок генеруе лексични, 
морфолопчну, семантичн! ознаки слав, визначае найпростши форми природно! мови, мае спещальн! засоби 
настройки на предметну область 1 на особливост! текст1в ПМ. У робот! розглядаються ц! функци. 


Т.Р. Кизпебоу, М.И. бЗотит, Е.В. Козегепко, А.С. Мабкейсй 

Ееаиге5 оЁГ Гех!са!-Статтайса| Апа!у$15 ог Кпо\ме4ое Вейлеуа1 гот Тех ш Мага! Гапоцасе 
ТБе рарег апайузез фе ехрепепсе оЁ изте Фе Ппо5Ис ргосеззог, \мсВ геблеуез Кпо\е@зе (шРогтаНоп 
оБ]ес{$ ог еззепсез ап4 Фет Ппк$) Нот пабага| |апэиасе {ех{5. Э1отиЙсап рагё оЁ 1е ргосеззог 1$ бе 
ргоседиге оЁ ]ех1са]-отатлтайса| апа]у$1$, \реВ Ваз Бееп по@ЙНе4 ш ргосез$ оЁ шише ю уатоиз заБ]есё 
Не]4$. М№о\у Фе ргоседиге Ваз тапу ресиПап@ез, мс аге сопз14еге ш Фе рарег. ТВе ргоседиге сепегайез 
1ех1са|, шогрВо|оз1са| ап зетапйс угогА аб щез. Ц апа]узез зоте Юплз оЁ пайага! 1апеиазе. И Баз зресла] 
теапз оЁ бапие 1ю за]есЕ Ве!45 апа 0 {ех( Ееабагез. ТВезе РапсНопз р1ау а з1етЙсапе го]е ш епрапсше Фе 
апашШу оЁ Те Ппеи1$Ис ргосеззог. 
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